Análise sobre os rendimentos e a participação na força de trabalho da população da região nordeste brasileira (2013-2015) a partir da PNAD Contínua


Professor(a): Maria Eduarda Tannuri Pianto


Alunos (Grupo 2):

  1. Glauciane Martins Rodrigues – Matrícula: 180121383
  2. Luiz Mário – Matrícula: 170121941
  3. Raphael Vieira dos Santos – Matrícula: 190152974
  4. Tauane Gabriela Costa – Matrícula: 202036240

Entrega: 21/07/2023




1 Introdução

Este trabalho tem como objetivo examinar as implicações das discrepâncias raciais nos salários dos indivíduos, com foco na Região Nordeste do Brasil. Para realizar essa análise, utilizamos a Pesquisa Nacional de Amostra Domiciliar Contínua (PNADC), conduzida em todo o país pelo Instituto Brasileiro de Geografia e Estatística (IBGE). Os dados utilizados foram obtidos a partir das bases da Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio).

Para a análise dos dados e as devidas inferências estatísticas, empregamos a linguagem estatística R e optamos por utilizar o RMarkdown, uma abordagem que combina a facilidade de escrita e a interpretação dos resultados com a apresentação dos códigos e gráficos gerados.

Os dados utilizados neste trabalho são provenientes do painel 3 da PNADC, que abrange dados trimestrais dos anos de 2013 a 2015, totalizando 2.866.552 observações. Esse amplo conjunto de dados abrange as 12 Unidades Federativas do Brasil, permitindo uma análise abrangente das disparidades salariais relacionadas às diferenças raciais na Região Nordeste.

Para garantir uma análise abrangente das variáveis relevantes, levamos em consideração diversos aspectos. Primeiramente, exploramos as características demográficas da população, como gênero, idade e etnia, com o intuito de compreender melhor o contexto em que os salários são determinados. Por fim, examinamos as características do trabalho, incluindo o tipo de ocupação, e a influência dos anos de estudo para os salários calculados em valores nominais por hora. Levamos em conta, com este trabalho, que esses fatores contribuem para uma análise preliminar das disparidades de renda relacionadas às diferenças raciais na Região Nordeste. Vale ressaltar que os aspectos relacionados ao desemprego não serão analisados nesta modelagem, uma vez que a variável dependente será o comportamento do salário, dadas as características demográficas da população.









2 Objetivo da Análise

O trabalho terá como objetivo estudar os rendimentos e a participação na força de trabalho da população da região Nordeste, com foco na diferença racial, a partir dos dados da Pesquisa Nacional por Amostra de Domicílio - PNAD, Contínua (trimestral), para os anos de 2013 a 2015.



1ª parte

Primeiro será necessário criar todas as variáveis relevantes para o trabalho.

Exemplos:

Dummy de área urbana, dummies de estado, dummy de chefe de domicílio, número de filhos, dummy para cônjuge ou companheiro(a), dummy de sexo, (homem ou mulher), dummies de raça, anos de educação, dummies para cada um dos níveis educacionais (até 4 anos , fundamental completo, médio completo, superior completo). Na criação da dummy ou dummies racial(s), juntar amarelos e brancos e juntar os indígenas com os pretos ou pardos, já que representam um percentual muito pequeno da população.

Será necessário realizar gráficos e tabelas com estatísticas descritivas das variáveis criadas, com atenção especial às definições das variáveis na PNADC, fazendo a estatística descritiva para o grupo etário a ser incluído: 14 a 65 anos. Para o grupo etário incluído na análise, apenas para os indivíduos que trabalham (população em idade ativa - PIA), elaborar tabela que inclua média, desvio-padrão, mínimo e máximo dos rendimentos mensais, inserindo uma linha para cada um dos seguintes grupos : Empregado com carteira de trabalho assinada (formal), Empregado sem carteira de trabalho assinada (informal), Trabalhador doméstico (juntar formal e informal), Funcionário público estatutário ou militar, Empregador, Conta própria, Trabalhador familiar auxiliar.









3 Efetuando a Análise da Estatística Descritiva (1ª Parte)

É necessário seguir alguns passos importantes.

3.1 Passo 1: Carregar os pacotes de dados

Como efetuaremos toda essa análise a partir do ambiente de desenvolvimento integrado (IDE) Rstudio, antes de mais nada, precisamos selecionar o diretório de trabalho via Session/Set Working Directory/Choose Directory.

Na sequência, iniciamos a instalação e carregamento dos pacotes de dados que serão utilizados. Vale dizer que nem todos os códigos aparecerão antes dos resultados pretendidos (gráficos e tabelas), mas iniciaremos reportando a fim de justificarmos essa etapa do trabalho.

library(pacman)

# Definir os pacotes a serem utilizados
pacman::p_load(dplyr, ggplot2, car, knitr, tidyr, rstatix, lmtest, ggpubr, data.table, car, GGally, 
               rstatix, lmtest, highcharter, plotly, writexl, QuantPsyc, psych, scatterplot3d, MVN, emmeans, kableExtra)

# Carregar os pacotes necessários
library(dplyr)
library(ggplot2)
library(foreign)
library(lmtest)
library(knitr)
library(tidyr)
library(tidyverse)
library(magrittr)
library(clubSandwich)
library(lmtest)
library(broom)
library(stargazer)
library(modelsummary)
library(jtools)
library(data.table)
library(rstatix)
library(ggpubr)
library(car)
library(GGally)
library(emmeans)
library(kableExtra)
library(DT)
library(plotly)
library(highcharter)
library(plm)







3.2 Passo 2: Inserindo e tratando os dados do Painel 3 da PNAD Contínua

A seleção do painel da PNADC, com os dados de interesse, seguiram o seguinte recorte:

Painel3_PNADC <- data.table::fread('PNAD_painel3.csv')


Realizaremos as análises descritivas de cada uma das variáveis consideradas relevantes para a análise de rendimentos e participação na força de trabalho, com ênfase em sua relação com a educação. Para as variáveis de interesse, serão examinados indicadores estatísticos como média, mediana, valores mínimos e máximos, que irão auxiliar no mapeamento das informações e na compreensão da relevância dos dados levantados no escopo da análise.

As variáveis escolhidas foram:

  1. Ano: Delimita o ano da observação

  2. Trimestre: Delimita o semestre da observação

  3. UF: Delimita geograficamente as observações por Unidades Federativas

  4. UPA: Identificação das observações (unidade primária de amostragem)

  5. V1008: Número de seleção do domicílio

  6. V1016: Número da entrevista no domicílio

  7. V1022: Situação do domicílio

  8. V1023: TIpo de área (se capital, resto da região metropolitana, RIDE, etc.)

  9. V2001: Número de pessoas no domicílio

  10. V2003: Número de ordem (pessoas no domicílio)

  11. V2007: Sexo do indivíduo (1 = homem, 2 = mulher)

  12. V2009: Idade do morador na data de referência (em anos)

  13. V2010: Cor ou raça

  14. V3001: Alfabetizado (1 = sim, 2 = não)

  15. VD3004: Nível de educação mais alto alcançado (5 anos ou mais de idade)

  16. VD3005: Anos de estudo (5 anos ou mais de idade, para fundamental de 9 anos)

  17. V4012: Tipo de trabalho

  18. VD4001: Condição em relação à força de trabalho na semana de referência para pessoas de 14 anos ou mais de idade

  19. VD4002: Condição de ocupação na semana de referência para pessoas de 14 anos ou mais de idade

  20. VD4018: Com ou Sem Rendimento

  21. VD4019: Rendimento mensal habitual de todos os trabalhos

  22. V4039: Quantas horas trabalhadas por semana

  23. V403312: Rendimento mensal efetivo de todos os trabalhos



# Diretório temporário
Sys.setenv(TMPDIR = "C:/R-Temp") # Esse diretório temporário foi retificado por ser mais curto

# Separando o banco de dados da PNADC (Painel3) por Estados
estados_nordeste <- c(21, 22, 23, 24, 25, 26, 27, 28, 29)
Painel3 <- Painel3_PNADC[UF %in% estados_nordeste, .(Ano, Trimestre, UF, UPA, V1008, V1016, V1022, V1023, V2001, V2003, V2007, V2009, V2010, V3001, VD3004, VD3005, V4012, VD4001, VD4002, VD4018, VD4019, V4039, V403312)]
Painel3[is.na(Painel3)] <- 0

# Criar uma coluna "Estado" e fazer o match com a coluna "UF"
estado_ufs <- c(
  "Maranhão", "Piauí", "Ceará", "Rio Grande do Norte", "Paraíba",
  "Pernambuco", "Alagoas", "Sergipe", "Bahia"
)
estado_ufs <- setNames(estado_ufs, 21:29)
Painel3$Estado <- estado_ufs[as.character(Painel3$UF)]
rm(Painel3_PNADC)


Painel3 <- arrange(Painel3, Ano, Trimestre)
glimpse(Painel3)
## Rows: 982,409
## Columns: 24
## $ Ano       <int> 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, ~
## $ Trimestre <int> 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, ~
## $ UF        <int> 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, ~
## $ UPA       <int> 210000056, 210000056, 210000056, 210000056, 210000056, 21000~
## $ V1008     <int> 1, 1, 1, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, ~
## $ V1016     <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ~
## $ V1022     <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ~
## $ V1023     <int> 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, ~
## $ V2001     <int> 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 7, 7, 7, 7, 7, 7, 7, 5, 5, 5, ~
## $ V2003     <int> 1, 2, 3, 1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 5, 6, 7, 1, 2, 3, ~
## $ V2007     <int> 2, 1, 1, 2, 1, 2, 1, 2, 1, 1, 2, 1, 1, 2, 1, 1, 1, 1, 2, 1, ~
## $ V2009     <int> 40, 14, 4, 25, 46, 2, 61, 55, 14, 13, 40, 51, 19, 16, 13, 8,~
## $ V2010     <int> 2, 2, 2, 4, 1, 1, 4, 4, 4, 4, 2, 4, 2, 2, 2, 2, 2, 4, 4, 4, ~
## $ V3001     <dbl> 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 0, 1, 1, 1, ~
## $ VD3004    <dbl> 5, 3, 0, 5, 3, 0, 3, 3, 3, 2, 2, 2, 2, 2, 2, 2, 0, 5, 5, 2, ~
## $ VD3005    <dbl> 12, 9, 0, 12, 9, 0, 9, 9, 9, 7, 5, 8, 4, 5, 5, 2, 0, 12, 12,~
## $ V4012     <dbl> 4, 0, 0, 3, 6, 0, 4, 0, 0, 0, 0, 6, 0, 0, 0, 0, 0, 6, 4, 0, ~
## $ VD4001    <dbl> 1, 2, 0, 1, 1, 0, 1, 2, 2, 0, 2, 1, 2, 2, 0, 0, 0, 1, 1, 0, ~
## $ VD4002    <dbl> 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, ~
## $ VD4018    <dbl> 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, ~
## $ VD4019    <dbl> 2000, 0, 0, 800, 1500, 0, 800, 0, 0, 0, 0, 300, 0, 0, 0, 0, ~
## $ V4039     <dbl> 40, 0, 0, 44, 44, 0, 40, 0, 0, 0, 0, 24, 0, 0, 0, 0, 0, 44, ~
## $ V403312   <dbl> 2000, 0, 0, 800, 1500, 0, 800, 0, 0, 0, 0, 300, 0, 0, 0, 0, ~
## $ Estado    <chr> "Maranhão", "Maranhão", "Maranhão", "Maranhão", "Maranhão", ~







3.3 Passo 3: Criando variáveis dummies

Para esta análise optamos por criar as respectivas variáveis dummy:

3.3.1 Dummy de raça (1 = pretos/pardos/indígenas/indiferentes, 0 = brancos/amarelos):

Painel3 <- Painel3 %>% mutate(dummy_raca = ifelse(V2010 %in%  c(1,3), 0, 1))
Painel3 <- Painel3[, !colnames(Painel3) %in% "V2010", with = FALSE]


3.3.2 Dummy de sexo (1 = homem, 0 = mulher):

Painel3 <- Painel3 %>% mutate(dummy_sexo = ifelse(V2007 == 1, 1, 0))
Painel3 <- Painel3[, !colnames(Painel3) %in% "V2007", with = FALSE]


3.3.3 Dummy para alfabetização (1 = sim, 0 = não):

Painel3 <- Painel3 %>% mutate(dummy_alfabetizado = ifelse(V3001 == 1, 1, 0))


3.3.4 Dummy para trabalho remunerado (1 = remunerado, 0 = não remunerado):

Painel3 <- Painel3 %>% mutate(dummy_remunerado = ifelse(VD4018 == 1, 1, 0))







3.4 Passo 4: Organizando os grupos da População em Idade Ativa - PIA

3.4.1 Filtrando o grupo etário para População em Idade Ativa - PIA (14 a 65 anos)

A População em Idade Ativa (PIA) refere-se ao grupo de indivíduos em uma determinada população que está apto a participar do mercado de trabalho. Essa faixa etária varia de acordo com a definição adotada em cada país, mas geralmente abrange pessoas com idades entre 14 e 65 anos.

A análise da PIA é de extrema importância para a compreensão da dinâmica econômica e social de uma sociedade. Ao examinar a PIA em pesquisas populacionais, como a PNAD Contínua, é possível obter informações valiosas sobre o tamanho, a composição e as características da força de trabalho de um país ou região.

A PIA desempenha um papel fundamental na formulação e implementação de políticas públicas voltadas para o mercado de trabalho e o desenvolvimento econômico. Ao compreender a estrutura etária da PIA, é possível identificar desafios e oportunidades específicos, como a demanda por emprego, o envelhecimento da força de trabalho, a qualificação educacional e as desigualdades socioeconômicas.

A análise da PIA permite identificar grupos populacionais que estão mais vulneráveis ao desemprego, à informalidade, à discriminação e a outras formas de exclusão social. Com base nesses dados, as políticas públicas podem ser direcionadas para promover a inclusão, estimular o emprego, melhorar as condições de trabalho e reduzir as desigualdades de gênero, raça/etnia e educação.

Portanto, a análise da PIA em pesquisas populacionais, como a PNAD Contínua, fornece subsídios importantes para a formulação de políticas públicas mais efetivas e direcionadas, visando o desenvolvimento socioeconômico, a redução da pobreza, a promoção da igualdade de oportunidades e o bem-estar da população em geral.

# Primeira etapa de filtragem (idade maior ou igual a 14)
Painel3_pia_temp <- Painel3 %>% 
  filter(V2009 >= 14)

# Segunda etapa de filtragem (idade menor ou igual a 65)
Painel3_pia <- Painel3_pia_temp %>%
  filter(V2009 <= 65)

# Limpando o dataframe temporário (opcional)
rm(Painel3_pia_temp)




3.4.2 Analisando a PIA pelos grupos de Idade, Estado e Participação na força de trabalho.

Inicialmente vamos separar o grupo da PIA em pessoas que trabalham com e sem rendimentos, e aquelas que não trabalham e não possuem rendimento. A tabela abaixo categoriza os grupos conforme a idade, apresentando uma coluna com o total de pessoas analisadas na PNADC, e o percentual dentro do grupo da idade respectiva.

Os grupos analisados foram:

  1. VD4001 = 1 & dummy_remunerado = 1 = “Trabalha com rendimentos”,
  2. VD4001 = 1 & dummy_remunerado = 0 = “Trabalha sem rendimentos”,
  3. VD4001 = 2 & dummy_remunerado = 1 = “Não trabalha e tem rendimentos”,
  4. VD4001 = 2 & dummy_remunerado = 0 = “Não trabalha e não tem rendimentos”.

Como veremos abaixo, o grupo “Não trabalha e tem rendimentos” não foi capturado pela filtragem dos dados. Dessa forma, podemos entender o grupo “Não trabalha e não tem rendimentos” como os indivíduos que não têm ocupação.



Abaixo vemos o total por Estado:





3.4.2.1 Ilustrando os grupos com as participações na força de trabalho em gráficos de barras dentro do grupo idade (14 a 65 anos) em toda a Região Nordeste




3.4.3 Analisando a PIA pelos fatores de Raça e Gênero na Participação na força de trabalho

Além de analisar a População em Idade Ativa (PIA) como um todo, é fundamental considerar a segmentação por sexo e raça ao realizar estudos e pesquisas populacionais, como no caso da pesquisa em questão, em que utilizamos as variáveis dummy “dummy_sexo” e “dummy_raca”.

Ao separar a PIA por sexo, é possível compreender as particularidades e desigualdades existentes entre homens e mulheres no mercado de trabalho. A segmentação por sexo permite identificar diferenças salariais, oportunidades de emprego, níveis de ocupação, participação em setores específicos da economia e a presença de questões como a divisão desigual das responsabilidades domésticas e cuidado familiar. Essas informações são essenciais para a formulação de políticas públicas que promovam a igualdade de gênero, a equidade salarial e o empoderamento das mulheres.


3.4.3.1 Analisando os componentes de Raça e Gênero em toda a Região Nordeste

Gênero Raça Percentual Total
Homem Branco 22.06449 72304
Homem PPI 77.93551 255390
Mulher Branco 24.33028 84837
Mulher PPI 75.66972 263852



3.4.3.2 Analisando os componentes de Raça e Gênero agrupados por Estados na Região Nordeste


Já a segmentação por raça/etnia na análise da PIA é fundamental para compreender as desigualdades socioeconômicas e a discriminação racial presentes no mercado de trabalho. Ao separar a população entre Brancos/Amarelos e Pretos/Pardos/Indígenas, é possível identificar diferenças na taxa de desemprego, nos níveis de escolaridade, nas oportunidades de ascensão profissional e nas condições de trabalho. Essa análise contribui para a formulação de políticas de inclusão, combate ao racismo estrutural e promoção da igualdade racial.

Portanto, ao analisar a PIA separadamente por sexo e raça, é possível evidenciar as desigualdades e as disparidades existentes, permitindo uma compreensão mais abrangente da realidade social e econômica. Essa abordagem segmentada é fundamental para que as políticas públicas sejam mais efetivas e direcionadas, visando a redução das desigualdades de gênero e raça, a promoção da diversidade e a construção de uma sociedade mais justa e inclusiva para todos.



Analisando o percentual total dos grupos Gênero e Estado pelo status de ocupação:





3.4.4 Analisando a PIA separando os grupos Raça e Gênero por Tipo de ocupação

Efetuaremos agora uma análise sobre o tipo de ocupação apresentada pela pesquisa. As categorias de ocupação foram identificadas na PNADC como:

  1. V4012 = 1, “Trabalhador doméstico”,
  2. V4012 = 2, “Militar do exército, marinha, aeronáutica, polícia militar ou bombeiro”,
  3. V4012 = 3, “Empregado do setor privado (com carteira)”,
  4. V4012 = 4, “Empregado do setor público”,
  5. V4012 = 5, “Empregador”,
  6. V4012 = 6, “Autônomo”,
  7. V4012 = 7, “Trabalhador familiar não remunerado”,
  8. V4012 = 0, “Trabalhador informal (sem carteira)”

OBS: o grupo V4012 = 0 foi reportado na PNADC como N/A (não aplicado) e, para esta análise, enquadramos como os indivíduos que trabalham na informalidade (sem carteira assinada). Também levamos em conta a diferença dos grupos Empregado do setor público e Militar do exército, marinha, aeronáutica, política militar ou bombeiro, conforme apresenta o dicionário da PNADC que pode ser acessado pelo clicando aqui.




Efetuando um somatório a fim de vermos o total, temos:






3.4.5 Ilustrando a Participação na força de trabalho por Idade, Raça, Gênero e Tipo de ocupação.

3.4.5.1 Gráfico: Participação de homens e mulheres conforme categoria de raças nos tipos de ocupação:



3.4.5.2 Gráfico: Participação de homens e mulheres brancos/amarelos comparados com pretos/pardos/indígenas atuando como Trabalhador doméstico:



3.4.5.3 Gráfico: Participação de homens e mulheres brancos/amarelos comparados com pretos/pardos/indígenas atuando como Militar:



3.4.5.4 Gráfico: Participação de homens e mulheres brancos/amarelos comparados com pretos/pardos/indígenas atuando como Empregado do setor privado:



3.4.5.5 Gráfico: Participação de homens e mulheres brancos/amarelos comparados com pretos/pardos/indígenas atuando como Empregado do setor público:



3.4.5.6 Gráfico: Participação de homens e mulheres brancos/amarelos comparados com pretos/pardos/indígenas atuando como Empregador:



3.4.5.7 Gráfico: Participação de homens e mulheres brancos/amarelos comparados com pretos/pardos/indígenas atuando como Autônomos:



3.4.5.8 Gráfico: Participação de homens e mulheres brancos/amarelos comparados com pretos/pardos/indígenas atuando como Trabalhador familiar não remunerado:



3.4.5.9 Gráfico: Participação de homens e mulheres brancos/amarelos comparados com pretos/pardos/indígenas e Trabalhador informal (sem carteira):




3.4.6 Analisando a PIA separando os grupos Raça e Gênero por Anos de Estudo

Efetuaremos agora uma análise sobre os anos de estudo apresentada pela pesquisa. As categorias foram identificadas na PNADC como:

  1. VD3004 = "1" = “Sem instrução e menos de 1 ano de estudo”,
  2. VD3004 = "2" = “Fundamental incompleto ou equivalente”,
  3. VD3004 = "3" = “Fundamental completo ou equivalente”,
  4. VD3004 = "4" = “Médio incompleto ou equivalente”,
  5. VD3004 = "5" = “Médio completo ou equivalente”,
  6. VD3004 = "6" = “Superior incompleto ou equivalente”,
  7. VD3004 = "7" = “Superior completo”.




Efetuando um somatório a fim de vermos o total, temos:





3.4.7 Ilustrando os grupos de gênero e raça conforme os anos de estudo.







3.5 Passo 5: Analisando o componente salarial para os grupos Raça, Gênero, Tipo de ocupação e Anos de estudo

A análise descritiva prossegue com a elaboração de gráficos e tabelas contendo estatísticas descritivas das variáveis criadas. Um ponto de atenção é garantir que as definições das variáveis estejam adequadas à PNADC.

No caso dos indivíduos que trabalham, será elaborada uma tabela com a média, desvio-padrão, mínimo e máximo dos rendimentos mensais.

Essa análise permitirá compreender o comportamento dos rendimentos mensais para diferentes tipos de ocupação, considerando tanto o setor formal quanto o informal da economia. Com esses dados descritivos, poderemos ter uma visão ampla da distribuição dos rendimentos salariais para os grupos de interesse, possibilitando identificar possíveis diferenças salariais entre raças, gêneros, níveis de educação e ocupações.

Essa primeira etapa de análise descritiva será fundamental para fornecer insights e subsidiar as análises mais aprofundadas do Passo 5, onde abordaremos o componente salarial dos grupos Raça, Gênero, Tipo de ocupação e Anos de estudo. Com essas informações em mãos, poderemos realizar uma análise mais robusta e embasada sobre as desigualdades salariais e suas possíveis causas.




3.5.1 Analisando os valores de Salário_Hora para os grupos de Gênero e Raça

Vamos relembrara aqui que a proposta de análise dos dados referentes a salário bruto mensal, verificado pela PNADC com a variável V403312, consideram o valor nominal em Reais (R$). Tendo isso em vista, incluiremos a variável salario_hora em nosso modelo a partir da divisão do rendimento bruto mensal por 4 (equivalendo a 4 semanas em um mês), e em seguida, dividindo pela variável V4039 que equivale ao total de horas trabalhadas por semana:

# Criar a nova coluna "salario_hora"
Painel3_pia <- Painel3_pia %>%
  mutate(salario_hora = V403312 / 4 / V4039)

# Substituir valores vazios (NaN) por zero na variável "salario_hora" do banco de dados "Painel3_pia"
Painel3_pia$salario_hora <- replace(Painel3_pia$salario_hora, is.nan(Painel3_pia$salario_hora), 0)

write.csv(Painel3_pia, file = "Painel3_pia_1.csv", row.names = FALSE)


Na sequência, iniciaremos um novo filtro para o banco de dados Painel3_pia considerando os grupos de Gênero e Raça, resultando na seguinte tabela:



Com isso já podemos resumir os valores de Mínimo, Máximo, Média, Mediana e Desvio-Padrão dos valores respectivos aos salários de pessoas conforme o Gênero e a Raça, para toda a Região Nordeste.


Gênero Raça Mínimo Máximo Média Mediana Desvio_Padrão
Homens Brancos/Amarelos 0 1250.0 6.325020 3.23 15.339110
Homens PPI 0 1875.0 4.021296 2.50 10.064948
Mulheres Brancos/Amarelos 0 562.5 3.844528 0.00 10.159497
Mulheres PPI 0 500.0 2.359862 0.00 6.413519


Passaremos agora para a visualização dos dados por meio do gráfico de boxplot, representado por caixas (boxes) no gráfico, ilustrando a distribuição dos salários médios por hora para cada grupo de gênero (homens e mulheres) e raça (PPI e Brancos/Amarelos). A linha no centro de cada caixa representa a mediana dos salários, enquanto a parte inferior da caixa indica o primeiro quartil (25%) e a parte superior, o terceiro quartil (75%).

Os pontos acima das caixas representam os valores médios dos salários para cada grupo. Além disso, as barras verticais que se estendem acima e abaixo das caixas representam os intervalos de confiança para o desvio-padrão, ou seja, a variação dos salários em torno da média.





3.5.2 Analisando os valores de Salário_Hora para os grupos de Gênero, Raça e Anos de Estudo.

De igual modo filtramos para “Anos de Estudo”, a fim de verificar o mínimo, máximo, média, mediana e desvio padrão dos “Salário_Hora” para cada grupo de “Raça” e “Gênero”, primeiro separado por estados, conforme a tabela a seguir.


Dessa forma, podemos então efetuar o resumo do total das estatísticas descritivas dentro dos grupos “Gênero” e “Raça”, para cada “Ano de Estudo”.



Os gráficos, a seguir, permitem visualizar a variação salarial dentro de cada grupo “Anos de estudo”, bem como identificar diferenças significativas entre os grupos de gênero e raça para cada nível de escolaridade.





3.5.3 Analisando os valores de Salário_Hora para os grupos de Gênero, Raça e Tipos de Ocupação.

Iremos agora filtrar para “Tipos de Ocupação”, a fim de verificar o mínimo, máximo, média, mediana e desvio padrão dos “Salário_Hora” para cada grupo de “Raça” e “Gênero”, primeiro separado por estados, conforme a tabela a seguir.


Podemos agora efetuar o resumo do total das estatísticas descritivas dentro dos grupos “Gênero” e “Raça”, para cada “Tipo de Ocupação”.










3.6 Conclusão da 1ª Parte

Com base nas análises realizadas a partir do banco de dados da PNAD Contínua (Painel 3), podemos obter insights importantes sobre a distribuição de salários por hora e sua relação com variáveis como gênero, raça e nível de instrução para a população da Região Nordeste, entrevistadas entre os anos de 2013 e 2015.

Diferenças de Gênero e Raça: Ao examinarmos os dados, é possível observar que existem diferenças significativas nos salários por hora entre homens e mulheres, bem como entre pessoas autodeclaradas como PPI (pretas, pardas e indígenas) e brancas/amarelas. Essas diferenças podem indicar disparidades salariais e reforçam a importância de políticas de equidade de gênero e combate ao racismo no ambiente de trabalho.

Impacto do Nível de Instrução: Outro fator relevante é o nível de instrução dos indivíduos. Aqueles com maior escolaridade tendem a receber salários mais elevados em comparação com os que possuem menos anos de estudo. Esse padrão destaca a relevância da educação e capacitação profissional como caminhos para obter melhores oportunidades de emprego e remuneração.

Variação Salarial: Notamos que existe uma variação nos salários por hora, indicando que há indivíduos com remuneração mais elevada ou mais baixa em relação à média. Essa variação pode ser influenciada por diversos fatores, como experiência profissional, setor de atuação e cargo ocupado.

É fundamental considerar essas informações para a tomada de decisões tanto no âmbito político como no empresarial. A busca por uma maior equidade salarial, oportunidades justas e inclusão social deve ser um objetivo constante para construir uma sociedade mais justa e sustentável.